Indexation des documents XML : Un DataGuide annoté avec un index de contenu
نویسندگان
چکیده
Indexing in classical information retrieval brings few tools for the treatment of the semi-structured documents: the representations of documents in information retrieval were conceived for flat and homogeneous documents. They are not adapted to the simultaneous treatment of the structure and the contents. Several approaches of indexing semi-structured data was proposed to resolve this new challenge which the most known is DataGuide. This paper presents a new approach of indexing semi-structured documents based on DataGuide allowing the conciliation between content and structure due to a virtual link which is not being a part of the index but built only at the time of the indexation and the
منابع مشابه
Modèle de recherche d'information structurée basé sur la relaxation de requêtes
RÉSUMÉ. Cet article présente un modèle pour la recherche d’information sur des documents XML basée sur la comparaison d’arbres, en utilisant le principe de relaxation de requêtes. Les requêtes et les documents sont représentés par des arbres étendus. Un arbre étendu est construit à partir de l’arbre original, avec la pondération des liens virtuels entre chaque nœud et ses descendants indirects,...
متن کاملAnalyse multidimensionnelle de documents via des dimensions OLAP
RÉSUMÉ. Avec l’émergence de formats de données semi-structurés (tels que XML), le stockage de documents dans un entrepôt centralisé est apparu de façon naturelle comme une adaptation des entrepôts de données. De nos jours, les systèmes OLAP (On-Line Analytical Processing) font face à une part grandissante de données non numériques. Cet article présente un environnement pour l’analyse multidimen...
متن کاملClassification de documents combinant la structure et le contenu
RÉSUMÉ. La démocratisation et l’évolution des logiciels de traitements de texte ont révolutionné le monde du document. Les auteurs construisent des documents dits structurés c'est-à-dire dont le contenu textuel s’organise autours de balises. Toutefois, la classification traditionnelle de documents n’utilise que le contenu textuel des documents et ignore les informations de structure. Dans ce pa...
متن کاملExpériences de classification d'une collection de documents XML de structure homogène
Résumé. Cet article présente différentes expériences de classification de documents XML de structure homogène, en vue d’expliquer et de valider une présentation organisationnelle pré-existante. Le problème concerne le choix des éléments et mots utilisés pour la classification et son impact sur la typologie induite. Pour cela nous combinons une sélection structurelle basée sur la nature des élém...
متن کاملIndexation de photos géoréférencées à l'aide du web participatif
RÉSUMÉ. La démocratisation des appareils photo numériques et l’intégration de capteurs numériques dans les téléphones mobiles permettent à chacun de prendre de nombreuses photos. Or, des plateformes de partage de photos, telles que Panoramio et Flickr, offrent la possibilité de les stocker, de les étiqueter avec des tags et de les partager. Ainsi, plus de 4 millions de photos sont publiées sur ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2008